AI资讯新闻榜单内容搜索-Scaling Up

真·MoE？路由LLM最全面探索：一种笔记本也能玩的大模型Scaling Up研究

事关路由LLM（Routing LLM），一项截至目前最全面的研究，来了——

来自主题: AI技术研报

8667 点击 2025-03-19 14:45

大模型扩展新维度：Scaling Down、Scaling Out

近年来， Scaling Up 指导下的 AI 基础模型取得了多项突破。从早期的 AlexNet、BERT 到如今的 GPT-4，模型规模从数百万参数扩展到数千亿参数，显著提升了 AI 的语言理解和生成等能力。然而，随着模型规模的不断扩大，AI 基础模型的发展也面临瓶颈：高质量数据的获取和处理成本越来越高，单纯依靠 Scaling Up 已难以持续推动 AI 基础模型的进步。

来自主题: AI技术研报

10379 点击 2025-02-21 15:43

斯坦福、Deepmind、剑桥联合发文：推理 Scaling Up 的简单技巧

随着 o1、o1 Pro 和 o3 的成功发布，我们明显看到，推理所需的时间和计算资源逐步上升。可以说，o1 的最大贡献在于它揭示了提升模型效果的另一种途径：在推理过程中，通过优化计算资源的配置，可能比单纯扩展模型参数更为高效。

来自主题: AI技术研报

8797 点击 2024-12-30 14:32

FBI-LLM低比特基础大语言模型来了，首个完全从头训练的二值化语言模型

自回归训练方式已经成为了大语言模型（LLMs）训练的标准模式，今天介绍一篇来自阿联酋世界第一所人工智能大学MBZUAI的VILA实验室和CMU计算机系合作的论文，题为《FBI-LLM: Scaling Up Fully Binarized LLMs from Scratch via Autoregressive Distillation》

来自主题: AI技术研报

7476 点击 2024-07-28 23:25